生成时间一致的高保真视频在计算上可能很昂贵,尤其是在较长的时间跨度上。更典型的扩散变压器(DIT)只会增加了挑战,因为它们依赖更大的模型和更重的注意机制,从而导致推理速度较慢。在本文中,我们介绍了一种无训练的方法来加速视频点,称为自适应缓存(ADACACHE),这是由于“并非所有视频都相同的视频都相等”的事实而动机:意思是,某些视频需要更少的DeNoOs步骤来获得比其他视频相比,获得合理质量的步骤。在此基础上,我们不仅通过扩散过程缓存计算,而且还设计了针对每个视频生成的缓存时间表,从而最大程度地提高了质量延迟权衡。我们进一步引入了运动正则(MOREG)方案,以利用Adacache中的视频信息,从本质上控制基于运动内容的计算分配。总的来说,我们的插件贡献授予了重要的推理加速度(例如在开放式720p -2s视频生成上最多可达4.7×),而无需在多个视频DIT基线上牺牲生成质量。
主要关键词